library(ggplot2) library(ggthemes) library(wordcloud) library(data.table) library(tm) # Frecuencias ------------------------------------------------------------ # Creamos previamente el documento tdm <- TermDocumentMatrix(corpus, control = list(removePunctuaction = T, stopWords = T, wordLengths = c(2, Inf))) # Palabras que aparezcan al menos esta cantidad de veces: ## lowfreq -> X veces o más ## highfreq -> X veces o menos findFreqTerms(tdm, lowfreq = 10) findFreqTerms(tdm, lowfreq = 5, highfreq = 9) findFreqTerms(tdm, lowfreq = 2, highfreq = 4) # Palabras asociadas a unas principales y el grado de unión que tienen entre si findAssocs(tdm, c("enfermo","trabajo", "empresa"), c(0.07, 0.07, 0.1)) # Creación de una matriz con la frecuencia de las palabras, de mayor a menor tweet_matriz <- as.matrix(tdm) tweet_matriz_sort <- sort(rowSums(tweet_matriz), decreasing = TRUE) dataf_tweet <- data.frame(words=names(tweet_matriz_sort), freq = tweet_matriz_sort) # Frecuencia de palabras y asociaciones: # idx <- which(dimnames(tdm)$Terms == "coronavirus") # inspect(tdm[idx + (0:5), 101:110])